iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0
AI & Data

AI與語音辨識系列 第 13

DAY13 語音辨識的基礎,來了解語音訊號part6

  • 分享至 

  • xImage
  •  

早上好,接著是一系列最頭痛的部分了⋯⋯


時域與頻域的愛恨糾葛

昨天已經大致了解了他們各自的工作,接著來介紹一下他們的族譜及關係。經過採樣及量化的語音訊號是以時域採樣點的形式存在,而在語音的處理上,我們除了分析它們之外,還會需要利用它們頻域的性質,因此需要將其轉變至其頻域,而處理完語音任務後(如降噪等),還需要變換回時域,來進行播放或者其他操作。下圖是他們之間的族譜大致關係:
https://ithelp.ithome.com.tw/upload/images/20230927/20161780oYn4KFv6vu.jpg

語音訊號最常使用的就是FFT,他是DFT的一種快速實現形式,對於一個離散訊號x(n),其轉換公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=X(k)%3D%5Cmathrm%7BFFT%7D%5Bx(n)%5D%3D%20%5Csum_%7Bn%3D0%7D%5E%7BN-1%7Dx(n)e%5E%7B-%5Cfrac%7Bj2%5Cpi%20kn%7D%7BN%7D%7D%20

其中的X(k)是訊號的複頻譜,其反應訊號在第k個頻率點上的幅度及相位。

FFT的變換是IFFT,其公式如下:
https://chart.googleapis.com/chart?cht=tx&chl=x(n)%3D%5Cmathrm%7BIFFT%7D%5BX(k)%5D%3D%5Cfrac%7B1%7D%7BN%7D%20%5Csum_%7Bk%3D0%7D%5E%7BN-1%7DX(k)e%5E%7B-%5Cfrac%7Bj2%5Cpi%20kn%7D%7BN%7D%7D

對語音訊號而言,x(n)均為實數,所以X(k)是關於N/2對稱的,即X(k)=X*(N-k)。

因此,在超過N/2是沒有資訊量的,這可以從理論上來解釋奈奎斯特採樣定理。

今天先告一個段落,明天繼續講奈奎斯特採樣定理。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY12 語音辨識的基礎,來了解語音訊號part5
下一篇
DAY14 語音辨識的基礎,來了解語音訊號part7
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言